Cumsum

沿指定轴计算张量的累积和

对于输入张量，沿指定轴计算累积和。支持独占（exclusive）和包含（inclusive）两种模式。

\[\begin{split}\text{output}[i] = \begin{cases} 0, & \text{if } i = 0 \text{ and exclusive} = \text{True} \\ \sum_{j=0}^{i-1} \text{input}[j], & \text{if } i > 0 \text{ and exclusive} = \text{True} \\ \text{input}[0], & \text{if } i = 0 \text{ and exclusive} = \text{False} \\ \sum_{j=0}^{i} \text{input}[j], & \text{if } i > 0 \text{ and exclusive} = \text{False} \end{cases}\end{split}\]

输入：

input - 输入数据地址。
out_dim - 输出维度（层数）。
axis_dim - 累积轴的维度大小。
inner_dim - 内部维度大小。
exclusive - 是否使用独占模式。1表示独占模式，0表示包含模式。
core_mask(int, 可选) - 核掩码（仅适用于共享存储版本）。

输出：

output - 计算结果地址。

支持平台：

FT78NE MT7004

备注

FT78NE 支持int8, int16, int32, fp32, fp64, cplx64, cplx128
MT7004 支持fp16, fp32, int16, int32, cplx64
独占模式（exclusive=1）：第一个元素为0，第i个元素为前i-1个元素之和
包含模式（exclusive=0）：第一个元素为输入的第一个元素，第i个元素为前i个元素之和

共享存储版本：

void i8_cum_sum_s(int8_t *output, int8_t *input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)

void i16_cum_sum_s(int16_t *output, int16_t *input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)

void i32_cum_sum_s(int32_t *output, int32_t *input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)

void hp_cum_sum_s(half *output, half *input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)

void fp_cum_sum_s(float *output, float *input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)

void dp_cum_sum_s(double *output, double *input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)

void c64_cum_sum_s(float (*output)[2], float (*input)[2], int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)

void c128_cum_sum_s(double (*output)[2], double (*input)[2], int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)

C调用示例：

//FT78NE示例
#include <stdio.h>
#include <cumsum.h>

int main(int argc, char* argv[]) {
    float *input = (float *)0xA0000000;   //input在DDR空间
    float *output = (float *)0xB0000000;  //output在DDR空间
    int out_dim = 8;       // 输出维度
    int axis_dim = 16;     // 累积轴维度
    int inner_dim = 16;    // 内部维度
    int exclusive = 0;     // 包含模式
    int core_mask = 0xff;
    fp_cum_sum_s(output, input, out_dim, axis_dim, inner_dim, exclusive, core_mask);
    return 0;
}

私有存储版本：

void i8_cum_sum_p(int8_t *output, int8_t *input, int out_dim, int axis_dim, int inner_dim, int exclusive)

void i16_cum_sum_p(int16_t *output, int16_t *input, int out_dim, int axis_dim, int inner_dim, int exclusive)

void i32_cum_sum_p(int32_t *output, int32_t *input, int out_dim, int axis_dim, int inner_dim, int exclusive)

void hp_cum_sum_p(half *output, half *input, int out_dim, int axis_dim, int inner_dim, int exclusive)

void fp_cum_sum_p(float *output, float *input, int out_dim, int axis_dim, int inner_dim, int exclusive)

void dp_cum_sum_p(double *output, double *input, int out_dim, int axis_dim, int inner_dim, int exclusive)

void c64_cum_sum_p(float (*output)[2], float (*input)[2], int out_dim, int axis_dim, int inner_dim, int exclusive)

void c128_cum_sum_p(double (*output)[2], double (*input)[2], int out_dim, int axis_dim, int inner_dim, int exclusive)

C调用示例：

//FT78NE示例
#include <stdio.h>
#include <cumsum.h>

int main(int argc, char* argv[]) {
    float *input = (float *)0x10810000;   //input在L2空间
    float *output = (float *)0x10850000;  //output在L2空间
    int out_dim = 8;       // 输出维度
    int axis_dim = 16;     // 累积轴维度
    int inner_dim = 16;    // 内部维度
    int exclusive = 0;     // 包含模式
    fp_cum_sum_p(output, input, out_dim, axis_dim, inner_dim, exclusive);
    return 0;
}